查看原文
其他

商务统计学基础 | 第三章 假设检验:为什么推翻原假设

王汉生,王菲菲 狗熊会 2023-09-14
点击上方"狗熊会"关注我们吧!

通过前面的学习我们了解到,人生会碰到大量带有不确定性的决策问题。面对这样的问题,我们需要做出二选其一的决策,而支撑该选择决策的是两个互相对立的假设。由于不确定性的存在,无论做出哪种选择,都存在犯错误的可能性,而这会产生两种不同的错误。对于绝大多数问题而言,这两种错误带给决策者的损失是非常不同的,一种特别严重,我们称其为第一类错误(Type I Error),应该得到严格控制,而与之相对应的假设就是原假设H0。另一种错误也不令人愉悦,但是可以忍耐接受,这是第二类错误(Type II Error),而与之对应的就是对立假设H1。在刚刚接触二选一的决策问题时,为了避免更大的损失,人们常常首先假设H0是成立的。既然在假设H0成立的前提下犯错的损失更小,那么我们永远假设H0成立不就可以了吗?为什么还要关心对立假设H1呢?答案非常简单。因为我们的最终目标仍然是尽可能地做出正确决策,因为正确的决策才是对自己最有利的。对立假设H1有没有可能正确呢?当然有可能。因此,当实际数据严重反对原假设H0时,也许更应该接受对立假设H1。本节将结合之前章节中讨论过的各个案例,认真探讨一下,在什么情况下应该推翻原假设。

案例1:恋爱。年轻人在恋爱时其实也会遇到的二选其一的决策问题是:是否尝试与对方交往。在前面的讨论中我们知道,两种选择都会犯错误。第一种错误是看走眼,也就是假设对方很不错,但是实际发现对方很糟糕(Type I Error)。第二种错误是错失真爱,假设对方不靠谱,没有和对方继续交往,但是实际上对方很优质,是值得进一步了解交往的人(Type II Error)。两种错误相比,大部分人往往认为第一种错误更糟糕,因为与不靠谱的人交往不仅浪费大量的时间,还容易在感情中受伤。为了尽可能规避第一类错误,普通人通常会默认对方不靠谱,所以不值得交往,这就是H0。而相应的对立假设H1认为对方很优质。虽然支持假设H0犯错的损失更小,但在这一决策问题中,人们最终追求的还是做出正确选择。如果对方仅仅有着不错的颜值和好听的声音,这些证据也许并不足以支持对立假设H1,贸然接受假设H1仍然很有可能产生严重的决策错误。那么为保守起见,选择支持假设H0似乎更加稳妥。但如果有足够的证据证明该对方很优质,例如通过一段时间的沟通交流,了解到对方勤奋进取、心地善良、心胸宽广、工作稳定。那么此时最好支持对立假设H1,尝试进一步交往,毕竟碰到优秀对方也不容易。

案例2:求职。在求职的过程中,求职者们往往需要决定接受还是拒绝一份工作机会。假设一名毕业生拿到了某家互联网大厂的就业机会,他就面临着二选其一的决策问题:要不要进入这家互联网大厂工作?求职者的每一个选择都有可能犯错误。第一种错误是得到不理想的工作(Type I Error),也就是求职者错误地认为这是一份非常理想的工作,但是工作一段时间后才发现这份工作枯燥无味而且没有什么晋升空间,非常不开心。第二种错误是错过理想的工作(Type II Error),也就是求职者认为这份工作不理想而拒绝了它。两种错误相比,很多求职者都会认为第一种错误带来的后果更糟糕,因为拥有一份不理想的工作是在浪费时间、浪费生命。为了尽可能规避第一类错误,求职者往往会默认该工作并不理想,这就是H0。而相应的对立假设H1是该工作很理想。虽然支持假设H0犯错的损失更小,但在这一决策问题中,求职者最终追求的还是做出正确选择。如果拿不出足够证据证明这是一份理想的工作,那么贸然接受H1可能是一个风险巨大的决策。此时为保险起见,选择支持假设H0似乎更加稳妥。但如果有足够的证据(例如面试时和面试官的沟通、网上找到的公司介绍以及学长学姐的经验等)证明这份工作很理想,证明这是一份上升空间巨大,团队友好稳定的工作,此时最好接受对立假设H1,进入该公司工作,毕竟求职的目的在于找到理想的工作,如果这是一份会让自己开心成长的好工作,那么也不要就此错过。

案例3:求学。进入北京大学光华管理学院学习的方式之一是参加每年暑期开展的优秀大学生夏令营活动。假设一名大三学生有志于进入北大光华深造,他面临的一个二选其一的决策问题是:申请夏令营还是不申请?在前面的讨论中我们知道,两种选择都会犯错误。第一种错误是低估自己(Type I Error),也就是该学生认为自己实力不足,因此放弃申请夏令营。第二种错误是高估自己(Type II Error),也就是申请者错误地认为自己具有通过夏令营考核的实力,其实他的实力有待提高,无法通过夏令营考核。两种错误相比,很多同学可能会认为第一种错误带来的后果更糟糕,因为放弃申请夏令营就意味着会错失一次被北大光华录取的机会。为了尽可能规避第一类错误,申请者往往会默认自己能够成功获得北大光华的入学资格,这就是H0。而相应的对立假设H1为不能取得入学资格。虽然支持假设H0犯错的损失更小,但在这一决策问题中,申请者最终追求的还是做出正确选择。如果申请人自身很优秀,找不到强有力的证据推翻原假设H0,那么还是稳妥起见,最好申请一下。相反,如果申请人专业排名很低,那么这应该是一个很强的证据反对原假设H0,此时接受对立假设H1,节省时间用于寻找下一个更有可能的发展方向,更有实际意义。

案例4:精准广告。精准广告是各大互联网平台投放广告的重要方式之一。以今日头条为例,当某用户打开今日头条APP,就会产生一个展示广告的机会,此时今日头条面临着二选其一的决策问题:投放还是不投放?在前面的讨论中我们知道,两种选择都会犯错误。第一种错误是错失广告机会(Type I Error),也就是平台错误地认为该用户对产品不感兴趣,从而放弃投放广告。第二种错误是骚扰用户(Type II Error),也就是平台误以为该用户对产品感兴趣,但实际上用户不会购买该产品。两种错误相比,平台可能会认为第一种错误带来的后果更糟糕,因为错失广告机会将直接影响业绩,而骚扰用户则短期难以预见损失。为了尽可能规避第一类错误,平台往往会默认用户对产品感兴趣,这就是H0。而相应的对立假设H1为用户对产品不感兴趣。虽然支持假设H0犯错的损失更小,但在这一决策问题中,平台最终追求的还是做出正确选择。如果找不到足够理由反对原假设H0,那么就永远假设用户对广告感兴趣,广告骚扰一下似乎也无大碍。对平台而言,这似乎是一个更加稳妥的策略。但是如果有足够的证据证明用户对此类广告没有兴趣(例如该用户为男士,而广告产品为女性卫生用品),那么最好不要骚扰用户,毕竟过度骚扰客户会带来不必要的客户流失。

案例5:信贷风控。蚂蚁花呗是一款在年轻人中较为知名的互联网消费信贷产品,假如某用户申请开通蚂蚁花呗,那么蚂蚁花呗平台就面临着一个二选其一的决策问题:批准还是不批准?在前面的讨论中我们知道,两种选择都会犯错误。第一种错误是高估用户的还贷能力(Type I Error),也就是平台错误地认为该用户能够归还本息,然而事实上用户没有足够的还贷能力。第二种错误是低估用户的还贷能力(Type II Error),也就是平台误以为该用户没有如期归还本息的能力,从而拒绝为其开通蚂蚁花呗,但实际上用户可以按期归还本息。两种错误相比,平台可能会认为第一种错误带来的后果更糟糕,因为用户欠缺还贷能力将导致平台损失本金和利息,而低估用户还贷能力仅会损失潜在利息。为了尽可能规避第一类错误,平台往往会默认用户借钱后不能按期归还,这就是H0。而相应的对立假设H1为用户能按期归还本息。虽然支持假设H0犯错的损失更小,但在这一决策问题中,平台最终追求的还是做出正确选择。如果平台拿不出足够证据证明该用户信用可靠,最好还是不要贸然发放贷款,否则本金损失风险很大。但是,如果有足够的数据(例如过往历史信贷数据,很好的学历证明,稳定的工作证明,长时间的银行流水证明等)证明该用户有非常好的信用水平,那么错失该优质客户也是令人遗憾的,毕竟公司业务要发展离不开这批优质的信贷用户。

案例6:电话销售。在很多行业中,电话销售是一类重要的销售方式。面对销售线索池中的每一条手机号码,电话销售人员面临二选其一的决策问题:打电话还是不打电话?在前面的讨论中我们知道,两种选择都会犯错误。第一种错误是错失客户(Type I Error),也就是员工错误地认为对方对产品不感兴趣,从而不拨打这条电话。第二种错误是打骚扰电话(Type II Error),也就是员工误以为对方对产品感兴趣,但其实对方接到电话后不会购买产品,反而对用户造成骚扰。两种错误相比,员工可能会认为第一种错误带来的后果更糟糕,因为错失客户会直接影响销售业绩,而打骚扰电话短期来看也许仅会损失话费。为了尽可能规避第一类错误,员工往往会默认对方对产品感兴趣,这就是H0。而相应的对立假设H1为对方不感兴趣。虽然支持假设H0犯错的损失更小,但在这一决策问题中,员工最终追求的还是做出正确选择。如果拿不出足够证据证明该用户对产品不感兴趣,最好还是拨打这条电话,否则很可能错过一次成功交易的机会。但是,如果有足够的数据(例如用户个人信息、线索质量评级、过往沟通记录等)证明该用户对产品不感兴趣,那么也应避免造成不必要的骚扰,毕竟长此以往可能影响品牌形象,并且可以节省下宝贵的时间用于接触更优质的客户。

案例7:新药上市。为保障人民的身体健康,新药上市需要经历严格的审批过程。假如有一款针对新冠肺炎的新药正在申请上市,药监局就面临着二选其一的决策问题:让新药上市还是不让新药上市?在前面的讨论中我们知道,两种选择都会犯错误。第一种错误是让劣药上市(Type I Error),也就是药监局错误地判断新药符合上市标准,但是新药实为劣药。第二种错误是错过良药(Type II Error),也就是药监局判断新药不符合上市标准,而实际上该新药符合标准。两种错误相比,药监局可能会认为第一种错误带来的后果更糟糕,因为让劣药上市会危害病人的生命安全,而错过良药仅导致市场上少了一种良药。为了尽可能规避第一类错误,药监局往往会默认新药不符合上市标准,这就是H0。而相应的对立假设H1是新药符合上市标准。虽然支持假设H0犯错的损失更小,但在这一决策问题中,药监局最终追求的还是做出正确选择。如果没有足够的证据证明该药品安全有效,那么最好拒绝该新药上市,以保护大众的用药安全。但是,如果有足够的临床三期实验数据证明该药品符合上市的安全性和有效性标准,那么错失这样一款安全有效的新药也是令人惋惜的,很多病患将因此失去得到救治的机会,毕竟治病救人才是根本。

案例8:法官判案法官判案需要经历案件受理、庭前审查、庭前会议和审判等过程。例如有一天老王声称老李诈骗了他的钱财,为此将老李告上法庭。经过了案件受理、庭前审查等环节后,法官面临着二选其一的决策问题:判老李有罪还是无罪?在前面的讨论中我们知道,两种选择都会犯错误。第一种错误是冤枉好人(Type I Error),也就是法官错误地认为老李诈骗了老王,使得老李蒙受冤屈。第二种错误是错放坏蛋(Type II Error),也就是法官错误地认为老李无罪,致使老李逍遥法外。两种错误相比,法官可能会认为第一种错误带来的后果更糟糕,因为相较而言,冤枉好人可能会造成更坏的社会影响。为了尽可能规避第一类错误,法官往往会默认嫌疑人无罪,这就是H0。而相应的对立假设H1为嫌疑人有罪。虽然支持假设H0犯错的损失更小,但在这一决策问题中,法官最终追求的还是做出正确选择。如果没有足够的证据证明老李犯了诈骗罪,那么最好判老李无罪,因为疑罪从无是被这个社会所接受的基本伦理规范。但是如果在法庭上原告展示了强有力的证据和证词,这些强有力的证据包括但不限于:通话录音、微信记录、邮件往来以及银行转账记录等,那么判老李犯了诈骗罪也是必要的。毕竟惩罚坏人,维护司法正义,才是根本。

案例9:编辑审稿。一篇论文的发表通常需要经历严格的审稿程序。假设一篇待发表论文已经经历了投稿、主编与副主编初审、同行专家评议、返回修改等过程,最终主编面临二选其一的决策问题是:接收还是拒收?在前面的讨论中我们知道,两种选择都会犯错误。第一种错误是错误接收(Type I Error),也就是主编错误地认为该论文各方面都比较完美,实际上该论文达不到接收的标准。第二种错误是错误拒绝(Type II Error),也就是主编误以为该论文仍需改进,实际上该论文已经比较完美了。两种错误相比,主编可能会认为第一种错误带来的后果更糟糕,因为错误接收会影响期刊的学术声誉,而错误拒绝仅会导致错失一篇优秀文章。为了尽可能规避第一类错误,主编往往会默认论文有需要改进的地方,这就是H0。而相应的对立假设H1则为论文很完美。虽然支持假设H0犯错的损失更小,但在这一决策问题中,主编最终追求的还是做出正确选择。如果没有足够的证据证明这是一篇非常出色的文章,那么最好拒收该论文,因为维护期刊的学术声誉任重道远。但是如果有足够的证据(例如多位资深审稿人非常一致的评价)证明了该文章的优秀,那么也应考虑接收该论文,因为发表优秀论文,传播学术思想,是期刊的根本使命。

案例10:签证审批。对于广大的赴美留学生而言,美国F1签证是留学的必要材料。在签证审批的线下面谈环节中,签证官面临一个二选其一的决策问题:申请人是有移民倾向还是没有移民倾向?在前面的讨论中我们知道,两种选择都会犯错误。第一种错误是误以为申请人没有移民倾向(Type I Error),于是通过了该申请人的签证。第二种错误是误以为申请人有移民倾向(Type II Error),于是拒绝通过该申请人的签证。两种错误相比,签证官可能会认为第一种错误带来的后果更糟糕,因为误以为申请人没有移民倾向会导致该申请人非法移民至美国,而错误拒绝仅会给留学生带来不便。为了尽可能规避第一类错误,签证官往往会默认申请人有移民倾向,这就是H0。而相应的对立假设H1认为申请人没有移民倾向。虽然支持假设H0犯错的损失更小,但在这一决策问题中,签证官最终追求的还是做出正确选择。如果没有足够证据证明该申请人无移民倾向,那么最好拒绝通过他的签证申请,毕竟误伤几个留学生并不会让签证官难过。但是如果有足够的证据(例如申请者的家庭收入、未来规划、学历和学校等)证明该申请人无移民倾向,那么申请人通常也能够成功获签,因为良好的学术交流对于美国科学教育事业的贡献巨大。

通过以上这些案例的分析,可以总结发现:面对二选其一的决策问题,如果没有足够证据证明对立假设H1成立,我们都选择支持原假设H0。直到出现强有力的证据时,才支持假设H1,这是做出决策的基本思路。通过这种思路可以较好地兼顾两个目标:做出正确决策和减少犯错损失。但是这还不足以支撑实际应用,例如具体而言怎样的证据才足够证明假设H1?怎样的证据不足以证明假设H1?“足够证明”和“不足够证明”之间的界限仍然是模糊的,无法应用于实际场景。这就需要借助必要的数学工具将上述思想规范为一个严格的数理统计学问题,而这一内容将在下节中详细介绍。

京东购书



当当购书


往期推荐

引言:从不确定性出发

第1章:不确定性的数学表达:连续型数据

第1章:不确定性的数学表达:正态概率密度

第1章:不确定性的数学表达:t-分布

第1章:不确定性的数学表达:指数分布

第1章:不确定性的数学表达:0-1分布

第1章:不确定性的数学表达:泊松分布

第2章:参数估计:矩估计

第2章:参数估计:极大似然估计

第2章:参数估计:正态分布均值的区间估计

第2章:参数估计:正态分布方差的区间估计

第2章:参数估计:其他分布参数的区间估计

第2章:参数估计:样本量计算

第3章:假设检验:不确定性与决策

第3章:假设检验:两种不同类型的错误




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存